执行联合互动需要持续相互监测自己的动作及其对对方行为的影响。这种行动效应的监测受到社会提示的提高,并可能导致越来越多的代理意识。共同行动和联合注意力严格相关,两者都有助于形成精确的时间协调。在人类机器人的互动中,机器人能够与人类伴侣建立共同关注并利用各种社会提示进行反应的能力是创建交流机器人的关键步骤。沿着社会组成部分,可以将有效的人类机器人互动视为改进和使机器人的学习过程更自然和健壮的新方法。在这项工作中,我们使用不同的社交技能,例如相互视线,凝视跟随,言语和人的面部识别,以开发有效的教师学习者场景,适用于动态环境中的视觉对象学习。 ICUB机器人的实验表明,该系统允许机器人通过与人类老师的自然互动来学习新对象,并在存在分心者的情况下学习。
translated by 谷歌翻译
机器人的视觉系统根据应用程序的要求不同:它可能需要高精度或可靠性,受到有限的资源的约束或需要快速适应动态变化的环境。在这项工作中,我们专注于实例分割任务,并对不同的技术进行了全面的研究,这些技术允许在存在新对象或不同域的存在下调整对象分割模型。我们为针对数据流入的机器人应用设计的快速实例细分学习提供了一条管道。它基于在预训练的CNN上利用的混合方法,用于特征提取和基于快速培训的基于内核的分类器。我们还提出了一种培训协议,该协议可以通过在数据采集期间执行特征提取来缩短培训时间。我们在两个机器人数据集上基准了提议的管道,然后将其部署在一个真实的机器人上,即iCub类人体。为了这个目的,我们将方法调整为一个增量设置,在该设置中,机器人在线学习新颖对象。复制实验的代码在GitHub上公开可用。
translated by 谷歌翻译
我们考虑对物体抓住的任务,可以用多种抓握类型的假肢手抓住。在这种情况下,传达预期的抓取类型通常需要高的用户认知负载,可以减少采用共享自主框架。在其中,所谓的眼睛内部系统会根据手腕上的相机的视觉输入自动控制掌握前的手工整形。在本文中,我们提出了一种基于目光的学习方法,用于从RGB序列中进行手部形状分类。与以前的工作不同,我们设计了该系统,以支持以不同的掌握类型掌握每个被认为的对象部分的可能性。为了克服缺乏此类数据并减少对训练系统繁琐的数据收集会话的需求,我们设计了一条呈现手动轨迹合成视觉序列的管道。我们开发了一种传感器的设置,以获取真正的人类握把序列以进行基准测试,并表明,与实际数据相比,使用合成数据集训练的实用案例相比,与对真实数据培训的模型相比,使用合成数据集训练的模型获得了更好的概括性能。我们最终将模型整合到Hannes假肢手中,并显示其实际有效性。我们使代码和数据集公开可用,以复制提出的结果。
translated by 谷歌翻译
Despite significant advances, the performance of state-of-the-art continual learning approaches hinges on the unrealistic scenario of fully labeled data. In this paper, we tackle this challenge and propose an approach for continual semi-supervised learning -- a setting where not all the data samples are labeled. An underlying issue in this scenario is the model forgetting representations of unlabeled data and overfitting the labeled ones. We leverage the power of nearest-neighbor classifiers to non-linearly partition the feature space and learn a strong representation for the current task, as well as distill relevant information from previous tasks. We perform a thorough experimental evaluation and show that our method outperforms all the existing approaches by large margins, setting a strong state of the art on the continual semi-supervised learning paradigm. For example, on CIFAR100 we surpass several others even when using at least 30 times less supervision (0.8% vs. 25% of annotations).
translated by 谷歌翻译
Predicting drug side-effects before they occur is a key task in keeping the number of drug-related hospitalizations low and to improve drug discovery processes. Automatic predictors of side-effects generally are not able to process the structure of the drug, resulting in a loss of information. Graph neural networks have seen great success in recent years, thanks to their ability of exploiting the information conveyed by the graph structure and labels. These models have been used in a wide variety of biological applications, among which the prediction of drug side-effects on a large knowledge graph. Exploiting the molecular graph encoding the structure of the drug represents a novel approach, in which the problem is formulated as a multi-class multi-label graph-focused classification. We developed a methodology to carry out this task, using recurrent Graph Neural Networks, and building a dataset from freely accessible and well established data sources. The results show that our method has an improved classification capability, under many parameters and metrics, with respect to previously available predictors.
translated by 谷歌翻译
本文解决了从第三人称角度捕获的单个图像中的目光目标检测问题。我们提出了一个多模式的深度建筑,以推断一个人在场景中所处的位置。该空间模型经过了代表丰富上下文信息的感兴趣人,场景和深度图的头部图像训练。我们的模型与几种先前的艺术不同,不需要对目光角度的监督,不依赖头部方向信息和/或利益人眼睛的位置。广泛的实验证明了我们方法在多个基准数据集上的性能更强。我们还通过改变多模式数据的联合学习来研究我们方法的几种变体。一些变化的表现也胜过一些先前的艺术。首次在本文中,我们检查了域名的凝视目标检测,并授权多模式网络有效地处理跨数据集的域间隙。该方法的代码可在https://github.com/francescotonini/multimodal-across-domains-domains-domains-domains-domains-warget-detection上获得。
translated by 谷歌翻译
无源域的适应性(SFDA)旨在通过仅使用预训练的源模型将分类器调整为未标记的目标数据集。但是,缺乏源数据和域移动使目标数据对目标数据的预测不可靠。我们建议量化源模型预测中的不确定性,并利用它来指导目标适应。为此,我们通过在网络参数上合并先验,构建一个概率源模型,从而在模型预测上诱导分布。通过采用拉普拉斯近似值来估算不确定性,并合并以识别不在源歧管中的目标数据点并在最大化目标数据上的共同信息时减少重量。与最近的作品不同,我们的概率处理是计算轻量级,脱离源训练和目标适应,并且不需要专门的源培训或模型体系结构的更改。我们显示了不确定性引导的SFDA比封闭设置和开放式设置中的传统SFDA的优势,并提供了经验证据,即即使没有调整,我们的方法对于强大的域转移也更为强大。
translated by 谷歌翻译
我们解决了一个新的新兴问题,该问题正在加权图中找到最佳的单核匹配。\ cite {adma}在每次迭代中采样完整匹配的半频带版本,创建了一个算法,预期的遗憾匹配$ o(\ frac {l \ log(l)} {\ delta {\ delta} \ log(t))$带$ 2L $播放器,$ t $迭代和最小奖励差距$ \ delta $。我们分两个步骤减少了这一界限。首先,如\ cite {grab}和\ cite {unirank},我们在适当的图上使用预期奖励的无模式属性来设计算法,并遗憾地在$ o(l \ frac {1} {\ delta} {\ delta} \ \log(t))$。其次,我们表明,通过将焦点转移到主要问题`\ emph {用户$ i $比用户$ j $更好?}'这个遗憾变成$ O(l \ frac {\ delta}}^2} \ log(t))$,其中$ \ tilde {\ delta}> \ delta $源自比较用户的更好方法。一些实验结果最终表明这些理论结果在实践中得到了证实。
translated by 谷歌翻译
在过去的几年中,无监督的域适应性(UDA)技术在计算机视觉中具有显着的重要性和流行。但是,与可用于图像的广泛文献相比,视频领域仍然相对尚未探索。另一方面,动作识别模型的性能受到域转移的严重影响。在本文中,我们提出了一种简单新颖的UDA方法,以供视频动作识别。我们的方法利用了时空变压器的最新进展来构建一个强大的源模型,从而更好地概括了目标域。此外,由于引入了来自信息瓶颈原则的新颖对齐损失术语,我们的架构将学习域不变功能。我们报告了UDA的两个视频动作识别基准的结果,显示了HMDB $ \ leftrightArrow $ ucf的最新性能,以及动力学$ \ rightarrow $ nec-Drone,这更具挑战性。这证明了我们方法在处理不同级别的域转移方面的有效性。源代码可在https://github.com/vturrisi/udavt上获得。
translated by 谷歌翻译
情绪识别涉及几个现实世界应用。随着可用方式的增加,对情绪的自动理解正在更准确地进行。多模式情感识别(MER)的成功主要依赖于监督的学习范式。但是,数据注释昂贵,耗时,并且由于情绪表达和感知取决于几个因素(例如,年龄,性别,文化),获得具有高可靠性的标签很难。由这些动机,我们专注于MER的无监督功能学习。我们考虑使用离散的情绪,并用作模式文本,音频和视觉。我们的方法是基于成对方式之间的对比损失,是MER文献中的第一次尝试。与现有的MER方法相比,我们的端到端特征学习方法具有几种差异(和优势):i)无监督,因此学习缺乏数据标记成本; ii)它不需要数据空间增强,模态对准,大量批量大小或时期; iii)它仅在推理时应用数据融合; iv)它不需要对情绪识别任务进行预训练的骨干。基准数据集上的实验表明,我们的方法优于MER中应用的几种基线方法和无监督的学习方法。特别是,它甚至超过了一些有监督的MER最先进的。
translated by 谷歌翻译